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Novinky ze světa R=-koronaviru 


PAVEL STŘÍŽ (CZ) 


Abstrakt. Článek je stručný popis myšlenek z doby koronaviru, kdy jsem pracoval s R. 
Pojďme trochu zavzpomínat na tu dobu. 


Klíčová slova. R, CRAN, Bioconductor. 


NEWS FROM THE WORLD OF R+CORONAVIRUS 


Abstract. This article briefly describes my memories of the coronavirus period while 
working with R. Let us refresh the memories! 


Keywords. R, CRAN, Bioconductor. 
The R Foundation Retweeted: Peter Dalgaard. R 4.0.0 “Arbor Day" (source version) has been 


released. 


24.4.2020 mi přistála na stole a za pár dní na to, 28.4.2020, došlo 
k Bioconductoru na verzi 3.11. Je Svátek práce, jdu ty nové lazyLoad, 
lazyEval a lazyData v R vyzkoušet a sdělit svůj nezávislý pohled. 


1. R v4.0.0 


Bez otálení jsem na svém Xubuntu 20.04 do /etc/apt/sources.list přidal: 
deb https://cloud.r-project.org/bin/linux/ubuntu bionic-cran40/ 
Zakomentoval jsem starší pokusy a provedl preventivní kroky: 


$ sudo apt-key adv --keyserver keyserver.ubuntu.com --recv-keys 
E298A3A825C0D65DFD57CBB651716619E084DAB9 

$ sudo apt update 

$ sudo apt upgrade 


Jádro aktualizace pak tvořil příkaz: 
$ sudo apt install r-base r-base-dev 
Rychlý test prokázal, že se podařilo a provedl jsem aktualizaci knihoven: 


$ R --version 
$ R 
> update.packages(.libPaths()) 
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2. COVID v19 


The R Foundation Retweeted: R Consortium has started new GitHub repository to centralize 
collaboration and data sources — looking to develop COVID-19 tools and code — Come add your 


information and contribute to the community! https://tddy.me/3aAX0mb 


Z toho samého dne zaujala mou pozornost ještě Řekl jsem si, že bych 
měl nově nainstalované R hlouběji vyzkoušet. 


Na úvodní stránce na mne vyskočily 4 projekty: 
a 

Vezmu-li to od konce. U na mne vyskočil GitHub. Po určitém 
bádání se mi podařilo otevřít a webovou stránku pro Českou republiku, 
https://www.volzinnovation.com/covid-19 SARS-CoV-2 corona/reports/ 
Autorem je Raphael Volz. 

Autorem je Jay Ulfelder. V mne hned upozornili, 


že se jedná o dočasný projekt. Pod Shiny app na mne vedle analýz vyškočily pdf 
v záložce WHO Situation Reports. Zajímavý nápad. 

Druhý projekt v pořadí je (Propagation.| Autorem je Juan Francisco Venegas 
Gutiérrez. Bohužel repozitář na GitHubu mi nešel otevřít, tak jsem to zahlásil 
(Issues). Mezi modely jsem Českou republiku nenašel. 


3. Coronavirus Tracker v0.1.4 


První projekt v pořadí od Johna Coeneho vyzývá ke spuš- 
tění R. Pustil jsem se do toho. RStudio cloud občas jel bez přístupových práv, 
požadavek na knihovny shinyMobile a echarts4r zněl zajímavě. 


$R 


> install.packages("coronavirus") 


Zkusil jsem z dokumentace první ukázku a ještě si vyžádal knihovnu dplyr. 
Proč si ji nenainstaloval sám? 


> install.packages("dplyr") 

> library(coronavirus) 

> reguire(dplyr) 

> coronavirus 4>4 filter(type=="confirmed") %>“ group by(Country.Region) 4>% 
summarise(total=sum(cases)) 4>% arrange(-total) 4>4 head(20) 

+ A tibble: 20 x 2 


Country Region total 
<chr> <int> 
1 Mainland China 70446 
2 Others 355 
3 Singapore 75 


Tady jsem zbystřil. To jsou stará data v textové formě, nikoliv hezké mapy 
přes web s aktuálními daty. Ve slangové řeči: rtfm! To, co jsem právě nainstaloval, 
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je knihovna https://github.com/RamiKrispin/coronavirus, která má stejný 


název. Mezi Issues jsem autorovi Trackeru zahlásil, že jeho název je v konfliktu 


s existující knihovnou z února 2020. 


Pokračoval jsem v experimentování, knihovnu jsem odinstaloval a podíval se 


na návod, https://coronavirus.john-coene.com, 


> remove.packages("coronavirus") 
> install.packages ("remotes") 
> remotes::install github("Johncoene/coronavirus") 


Během instalace mi naskočila tato neobvyklá zpráva: 


- Use "usethis::browse github pat()' to create a Personal Access Token. 
- Use "usethis::edit r environ()"' and add the token as "GITHUB PAT". 


Knihovna usethis se teprve instalovala. V každém případě zmínka o Rate 
limit reset at: [...], kdy došlo k restartu za několik minut pro mne zname- 
nalo chvíli počkat a instalaci zopakovat. 

Před koncem instalace si R vyžádalo systémový balík libpg-dev ve starší verzi 
10.3-1 (aktuální je 10.12-0). Udělal jsem hrubý krok, doporučuji čtenářům najít 
lepší řešení přes Docker či pečlivě projít, co se bude odinstalovávat. 


$ sudo apt install aptitude 
$ sudo aptitude install libpg-dev 


Na první dotaz jsem dal nikoliv (n; starší balík by se nenainstaloval), na druhou 
nabídku ano (y). Zopakoval jsem instalaci v R a skončila úspěšně. 


Zkusil jsem třířádkovou ukázku dle instalačního manuálu, 
(nutno zalistovat na webové stránce níž). 


library(coronavirus) 
virus<-crawl coronavirus() 
Crawling data from John Hopkins 
Crawling data from Weixin 
Crawling data from DXY 


VHF HO VOV 


run app(virus) 
Pozn. Pokud bychom se dostali do konfliktu u příkazů, užijme: 


> virus <- coronavirus::crawl coronavirus() 
> coronavirus::run app(virus) 


Ve webovém prohlížeči se mi otevřela vygenerovaná stránka, pokaždé na jiném 
portu. Radost byla veliká! Za pozornost stojí, že má být Johns Hopkins, to již 
někdo zahlásil autorovi k opravení. 
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barscoronavirus Tracker 


iwide 


1158040 


2020 


info circle waveform p waveform graph circle guote bubb 
Hon John Hopkins Welxin čkv Něivs 


Ve spodní části je pět záložek. Na druhé (waveform path) v bloku China 
a World a čtvrté (graph circle) v bloku Cities jako kdyby něco chybělo. Po na- 
kliknutí do bloku se otevře detailní výpis. Vrátit zpět se dá přes značku xmark ci- 
rele fill v pravém horním rohu. Design je trochu nezvyklý, ale musíme mít na 
paměti, že je to zaměřené na mobilní telefony a já to zkoušel na notebooku. 

Detaily kolem dat je možné nalézt v levém horním rohu pod bars nebo menu. 
Z R lze server zavřít přes klávesovou kombinaci Ctr14-C. 

Nyní dokumentace radí si nastavit crontab atd. Co mne zaujalo u stažení dat 
z DXY je, že se občas nezadařilo připojit. V rychlosti jsem nahlédl na server 
litps://education.rstudio.con/| konkrétně na dataio| 

Jakmile se podařilo na servery připojit, mohl jsem si proměnnou virus uložit 
a opětovně užívat. Rychlá pomůcka u experimentů bez nutnosti aktualizace dat. 


> save(virus, file="virus.RData") 
> load("virus.RData") 


4. Hašovací klíč od newsapi.org v2 


Mou pozornost zaujala poslední záložka se zprávou No newsapi token. 'Io bych 


rád poléčil. Autor v radí: 


> library (coronavirus) 


> create config() 
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V pozadí se ze šablony vytvoří soubor coronavirus.yml, blok database je 
povinný, blok newsapi volitelný. To byl pro mne problém. Já jsem to chtěl obrá- 
ceně. Nevadí. 


Přes https://newsapi.org/register jsem se zaregistroval a získal hašovací 
klíč. Zahlédl jsem jejich novou knihovnu pro R newsanchor,|my zůstaneme u au- 


torem užité knihovny newsapi. 


Zkusil jsem R podsunout hašovací klíč: 


> library(newsapi) 
> newsapi::newsapi key("41e22e9efcf64b2a9354a796b99c43b8") 


Ale ani touto cestou ani jinou přes editaci souboru coronavirus.yml se mi 
to nepodařilo. 
Prvně jsem nahlédl na zdrojové kódy v: 


$ cd -/R/x86 64-pc-linux-gnu-library/4.0/coronavirus 


Narazil jsem hlavně na binární soubory rds, rdx a rdb. Nejsem expert, abych 
dokázal odpovědět, jestli by se soubory daly rozluštit a editovat. 
Prozkoumal jsem zdrojové kódy přímo od autora: 


$ git clone https: //github.com/JohnCoene/coronavirus 


Došel jsem k závěru, že bych musel zdrojové kódy upravit, zkompilovat atd. 
To je nad rámec této sváteční zprávy. 
V souboru coronavirus/inst/app/Dockerfile jsem si ověřil, že skutečně kni- 


hovnu newsapi přebírá z GitHubu od uživatele 
5. PostgreSAL v10+190 


Říkal jsem si, když už se mi podařilo nainstalovat libpa-dev, dokáži i zbytek. 
Otevřel jsem komunitní tutoriál. Nainstaloval jsem PostgreSAL: 


$ sudo apt install postgresgl postgresgl-contrib 


A nejkratší možnou cestou jsem se pustil do dalších kroků. Vytvořil jsem v da- 
tabázovém systému nového uživatele testing a novou databázi testing. Vyne- 
chávám krok vytvoření uživatele pod operačním systémem. 


$ sudo -i -u postgres createuser --interactive 
Enter name of role to add: testing 

Shall the new role be a superuser? (y/n) y 

$ sudo -u postgres createdb testing 


Uživatel je bez hesla, to webové rozhraní nepřijme. Nastavil jsem nové heslo 
přes: 
$ sudo -i -u postgres 
$ psal 
postgres= ALTER USER testing WITH PASSWORD 'testing"'; 
postgres=ř Vg 
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$ exit 


Rychlokurz psgl: help je základní nápověda, (1 je výpis databází, c testing 
je připojení k naší databázi, (dt je výpis tabulek, (h je seznam SGL příkazů, (? 
je seznam příkazů psgl a Va ukončí běh programu. Verzálky u příkazů netřeba 
psát. 

Vše zrealizované jsem zaznačil v coronavirus.yml: 
database: 

name: testing 

host: 127.0.0.1 

user: testing 

password: testing 
newsapi: 

key: 41e22e9efcf64b2a9354a796b99c43b8 

Když jsem opakoval tři řádky ukázkového spuštění v R, výpis se mi rozšířil 
o tyto dva řádky: 

i Crawling news from newsapi.org 
v Writing to database 


V páté záložce mi vyběhly novinky, aktivovaný dotaz lze nalézt u autora v sou- 
boru coronavirus/R/crawl.R: 


news <- newsapi::every news("coronavirus OR covid", results = 100, language = 


"en", sort = "popularity") 


barscCoronavirus Tracker 


Ověření funkčnosti můžeme zjistit i z tabulky log: 


$ psal -h localhost -d testing -U testing 
Password for user testing: testing 
testing= SELECT + FROM log; 


Dostáváme přibližně takový výsledek: 


last updated 


2020-05-01 18:19:24.547171+02 
(1 row) 
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Dle chuti lze dál bádat u surových dat, např.: 


testing= SELECT * FROM jhu WHERE country='Czechia'; 
testing= SELECT * FROM jhu WHERE country='Slovakia'; 
testing=f Ng 


6. Bioconductor v3.11 


Před dalším krokem si obvykle nastavuji plná práva u těchto adresářů: 


cd /usr/lib/R 

sudo chmod -R 777 site-library/ 
sudo chmod -R 777 library/ 

cd /usr/share 

sudo chmod -R 777 R/ 


 b 6 O e © 


Za zmínku stojí, že manažer knihoven biocLite ustupuje a roli nahrazuje 


V R lze otestovat: 


install.packages ("BiocManager") 
library (BiocManager) 
BiocManager::install() 


VOVOVV 


BiocManager::available() 
Můžeme ověřit instalaci knihoven: 


> BiocManager::valid() 

[...] "coronavirus", "echarts4r", "shinyMobile" [...] 
Warning message: 
O packages out-of-date; 3 packages too new 


To souhlasí, neb coronavirus byl instalován z GitHubu, nikoliv z / CRANu. 
Pro badatele stojí za pozornost obrazy pro a (Amazon Machine 
Image, AMI). Je zde možnost instalovat vývojářské knihovny: 


> BiocManager::install(version="devel") 


7. Řešení konfliktu názvu knihovny v R 


Na chvíli se ještě vratme k řešení konfliktu stejného názvu knihoven. Na 
zmiňují v principu dvě cesty. 


Stáhnout si zdrojové soubory a nic neměnit: 


$ cd /tmp 
$ wget https://cran.r-project.org/src/contrib/coronavirus 0.1.0.tar.gz 
$ R CMD INSTALL -1 /tmp coronavirus 0.1.0.tar.gz 


V Rsi pak volat jeden z příkazů a vybrat tak chtěnou knihovnu: 


> £ library(coronavirus) 
> library(coronavirus, lib.loc="/tmp") 
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Když jsem zkoušel paralelně spustit i instalovanou knihovnu z GitHubu coro- 
navirus odkomentováním prvního řádku, tak to neběželo. Tuším, že se jedná 
o bezpečnostní pojistku. 

Druhá cesta je zasáhnout do souboru DESCRIPTION. 


$ tar xvf coronavirus 0.1.0.tar.gz 
$ mv coronavirus coronavirusRami 

$ cd coronavirusRami 

$ nano DESCRIPTION 


První řádek upravit například na Package: coronavirusRami. 
Volitelně upravíme i MD5, konkrétně první řádek za výpis: 


$ mdbsum -b DESCRIPTION 
32418275940bfa7fde376934c57a28ae *DESCRIPTION 


Chtělo by to přejmenovat i další soubory na coronavirusRami, u této školní 
ukázky vynechávám. Zabalil jsem si zpět a už podsunul R: 
$ cd... 
$ tar cvf coronavirusRami.tar.gz coronavirusRami/ 
$ R CMD INSTALL coronavirusRami.tar.gz 


Ověřit funkčnost můžeme už přímo v R a lze si spustit oba konfliktní balíčky 
paralelně: 
> library(coronavirus) 

fcoronavirus::crawl coronavirus 


> 
> library(coronavirusRami) 
> ?coronavirusRami::coronavirus 


8. Pár tipů místo Závěru 


Podobně jako jsou v R knihovny setříděné podle kategorií, viz Zobrazení úloh 
(CRAN Task Views), lze nahlédnout u na s klíčovým slovem 
covid-19. K dnešnímu dni tam jsou tři záznamy: Some Select COVID-19 Mode- 
Simulating COVID-19 interventions with Ra COVID-19 epide- 

Kdo by dal přednost odpočinku od R a PostgreSGAL, nechť nahlédne na aktuální 


stavy kolem koronaviru na https://www.twitch.tv/killars, 
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